Language models (LMs) now excel at many tasks such as few-shot learning, question answering, reasoning, and dialog. However, they sometimes generate unsupported or misleading content. A user cannot easily determine whether their outputs are trustworthy or not, because most LMs do not have any built-in mechanism for attribution to external evidence. To enable attribution while still preserving all the powerful advantages of recent generation models, we propose RARR (Retrofit Attribution using Research and Revision), a system that 1) automatically finds attribution for the output of any text generation model and 2) post-edits the output to fix unsupported content while preserving the original output as much as possible. When applied to the output of several state-of-the-art LMs on a diverse set of generation tasks, we find that RARR significantly improves attribution while otherwise preserving the original input to a much greater degree than previously explored edit models. Furthermore, the implementation of RARR requires only a handful of training examples, a large language model, and standard web search.
translated by 谷歌翻译
关于信息检索的许多最新研究集中在如何从一项任务(通常具有丰富的监督数据)转移到有限的其他各种任务,并隐含地假设可以从一个任务概括到所有其余的任务。但是,这忽略了这样一个事实,即有许多多样化和独特的检索任务,每个任务都针对不同的搜索意图,查询和搜索域。在本文中,我们建议使用几乎没有散热的检索,每个任务都有一个简短的描述和一些示例。为了扩大一些示例的功能,我们提出了针对检索器(即将到来)的及时基本查询生成,该查询将大型语言模型(LLM)作为几个弹片查询生成器,并根据生成的数据创建特定于任务的检索器。通过LLM的概括能力提供动力,即要来源使得可以仅基于一些示例{没有自然问题或MS MARCO来训练%问题生成器或双重编码器,就可以仅基于一些示例{没有}来创建特定于任务的端到端检索。出乎意料的是,LLM提示不超过8个示例,允许双重编码器在MARCO(例如Colbert V2)上训练的大量工程模型平均在11个检索套件中超过1.2 NDCG。使用相同生成数据的进一步培训标准尺寸的重新级别可获得5.0点NDCG的改进。我们的研究确定,查询产生比以前观察到的更有效,尤其是在给出少量特定于任务知识的情况下。
translated by 谷歌翻译
已经表明,在一个域上训练的双编码器经常概括到其他域以获取检索任务。一种广泛的信念是,一个双编码器的瓶颈层,其中最终得分仅仅是查询向量和通道向量之间的点产品,它过于局限,使得双编码器是用于域外概括的有效检索模型。在本文中,我们通过缩放双编码器模型的大小{\ em同时保持固定的瓶颈嵌入尺寸固定的瓶颈的大小来挑战这一信念。令人惊讶的是,令人惊讶的是,缩放模型尺寸会对各种缩放提高检索任务,特别是对于域外泛化。实验结果表明,我们的双编码器,\ textbf {g} enovalizable \ textbf {t} eTrievers(gtr),优先级%colbert〜\ cite {khattab2020colbertt}和现有的稀疏和密集的索取Beir DataSet〜\ Cite {Thakur2021Beir}显着显着。最令人惊讶的是,我们的消融研究发现,GTR是非常数据的高效,因为它只需要10 \%MARCO监督数据,以实现最佳域的性能。所有GTR模型都在https://tfhub.dev/google/collections/gtr/1发布。
translated by 谷歌翻译
本文探讨了提高语言模型的零次学习能力的简单方法。我们表明,指令调整 - 通过对说明书中所述的任务集合微调语言模型 - 大幅提升零射门上看不见任务中的表现。我们采取预训练的语言模型和指令调整它通过自然语言指令模板语言表达了60NLP任务137B参数。我们评估这种指令调整模型,我们称之为FLAN,在看不见的任务类型。FLAN显着改善其未修饰的对应的性能和超过25的20个任务,我们评估零射门175BGPT-3。FLAN甚至GPT-3通过在安利,RTE,BoolQ,AI2-ARC,OpenbookQA和StoryCloze大比分胜过几拍。消融研究显示任务和模型的规模,这个数字是指令调整取得成功的关键组成部分。
translated by 谷歌翻译
与置换不变的代理框架的合作多元化学习(MARL)在现实世界应用中取得了巨大的经验成功。不幸的是,由于许多代理商的诅咒以及对现有作品中的关系推理的有限探索,对这个MARL问题的理论理解缺乏。在本文中,我们验证了变压器是否实现了复杂的关系推理,并提出和分析了与变压器近似器的无模型和基于模型的离线MARL算法。我们证明,基于模型和基于模型的算法的次级次数差距分别与代理数量分别独立于和对数,这减轻了许多试剂的诅咒。这些结果是变压器的新概括误差结合的结果以及对变压器系统动力学的最大似然估计(MLE)的新分析。我们的基于模型的算法是第一个明确利用代理的置换不变性的可证明有效的MARL算法。
translated by 谷歌翻译
我们研究了与中央服务器和多个客户的联合学习多臂强盗设置中最佳手臂识别的问题。每个客户都与多臂强盗相关联,其中每个手臂在具有未知均值和已知方差的高斯分布之后,每个手臂都能产生{\ em I.i.d。} \奖励。假定所有客户的武器集相同。我们定义了两个最佳手臂的概念 - 本地和全球。客户的当地最好的手臂是客户本地手臂中最大的手臂,而全球最佳手臂是所有客户平均平均值最大的手臂。我们假设每个客户只能从当地的手臂上观察奖励,从而估计其当地最好的手臂。客户在上行链路上与中央服务器进行通信,该上行链路需要每个上行链路的使用费用为$ C \ ge0 $单位。在服务器上估算了全球最佳手臂。目的是确定当地最佳武器和全球最佳臂,总成本最少,定义为所有客户的ARM选择总数和总通信成本的总和,但在错误概率上取决于上限。我们提出了一种基于连续消除的新型算法{\ sc fedelim},仅在指数时间步骤中进行通信,并获得高概率依赖性实例依赖性上限,以其总成本。我们论文的关键要点是,对于任何$ c \ geq 0 $,错误概率和错误概率足够小,{\ sc fedelim}下的ARM选择总数(分别为\ the总费用)最多为〜$ 2 $(reves 。〜 $ 3 $)乘以其在每个时间步骤中通信的变体下的ARM选择总数的最大总数。此外,我们证明后者在期望最高的恒定因素方面是最佳的,从而证明{\ sc fedelim}中的通信几乎是无成本的。我们从数值验证{\ sc fedelim}的功效。
translated by 谷歌翻译
这项工作系统地调查了深度图像去噪者(DIDS)的对抗性稳健性,即,可以从嘈杂的观察中恢复地面真理的噪音,因对抗性扰动而变化。首先,为了评估DIDS的稳健性,我们提出了一种新的逆势攻击,即观察到的零平均攻击({\ SC obsatk}),对给定嘈杂的图像来制作对抗零均匀扰动。我们发现现有的确实容易受到{\ SC Obsatk}产生的对抗噪声。其次,为了强化犯罪,我们提出了一种对抗性培训策略,混合对抗训练({\ SC帽}),共同列车与对抗性和非对抗性嘈杂的数据做出,以确保重建质量很高,并且围绕非对抗性数据是局部光滑的。所得到的确实可以有效去除各种类型的合成和对抗性噪声。我们还发现,DIDS的稳健性使其在看不见的真实噪音上的概括能力。实际上,{\ SC帽子} -Tromed DID可以从真实世界的噪音中恢复高质量的清洁图像,即使没有真正的嘈杂数据训练。基准数据集的广泛实验,包括SET68,PolyU和SIDD,证实了{\ SC Obsatk}和{\ SC帽}的有效性。
translated by 谷歌翻译
类增量学习(CIL)旨在以相位逐相的方式学习多级分类器,其中仅在每个阶段提供类的子集的数据。以前的作品主要专注于初始之后减轻阶段的遗忘。但是,我们发现,在初始阶段改善CIL也是一个有希望的方向。具体而言,我们通过实验表明,在初始阶段直接鼓励CIL学习者将类似的表示类似的表示,因为在所有类别上训练的模型可以大大提升CIL性能。由此激励,我们研究了NA \“IVERY训练初始阶段模型和Oracle模型之间的差异。具体来说,由于这两个模型之间的一个主要区别是培训类的数量,我们研究了这种差异如何影响模型表示。我们发现,通过较少的培训类,每个班级的数据表示位于一个漫长而狭窄的地区;通过更多的培训类,每个阶级的陈述更统一地散射。灵感来自这种观察,我们提出了课堂上的去相关性(CWD)有效地规范了每个类的表示,以更统一地散射,从而模拟与所有类联合训练的模型(即Oracle模型)。我们的CWD易于实施,易于插入现有方法。各种各样的实验基准数据集显示CWD一直在且显着提高现有最先进方法的性能约为1 \%至3 \%。代码将被释放。
translated by 谷歌翻译
使用信息理论原理,我们考虑迭代半监督学习(SSL)算法的概括误差(Gen-Error),这些算法迭代地生成了大量未标记数据的伪标记,以逐步完善模型参数。与{\ em绑定} Gen-Error的大多数以前的作品相反,我们为Gen-Error提供了{\ em Exact}的表达,并将其专门为二进制高斯混合模型。我们的理论结果表明,当阶级条件差异不大时,Gen-Error随着迭代次数的数量而减少,但很快就会饱和。另一方面,如果类的条件差异(因此,类别之间的重叠量)很大,则Gen-Error随迭代次数的增加而增加。为了减轻这种不良效果,我们表明正则化可以减少Gen-Error。通过对MNIST和CIFAR数据集进行的广泛实验来证实理论结果,我们注意到,对于易于分类的类别,经过几次伪标记的迭代,Gen-Error会改善,但此后饱和,并且更难难以实现。区分类别,正则化改善了概括性能。
translated by 谷歌翻译
本文统一了设计,简化了风险厌恶汤普森采样算法的分析,为多武装爆炸问题的常规风险功能为$ \ rho $。在大偏差理论中使用收缩原理,我们证明了这些连续风险功能的新型浓度界限。与现有的作品相比,所界限取决于样本本身,我们的范围仅取决于样本的数量。这使我们能够以追求的分析挑战,并统一现有汤普森采样的算法的遗憾范围。我们展示了广泛的风险功能以及它们的“漂亮”功能满足连续性条件。使用我们新开发的分析工具包,我们分析了算法$ \ rho $ -mts(对于多项式发行版)和$ \ rho $ -npts(对于有界分布),并证明他们承认渐近最佳的风险厌恶算法的最佳遗憾平均方差,CVAR等普遍存在风险措施,以及一系列新综合的风险措施。数值模拟表明,我们的界限是相当严格的VIS-\“A-VIS算法无关的下限。
translated by 谷歌翻译